dlm

MoE架构救DLM？LLaDA-MoE与RND1，如何让语言模型更高效？

话说最近AI圈又有大新闻了！俩扩散语言模型（DLM）突然火了，一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE，另一个是RadicalNumerics家的RND1。